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© Verfahren zum Betrieb einer Datenverarbeitungseinnchtung 

© Verfahren zum Betrieb einer Datenverarbeitungseinnch- 
tung mtt programmier- und konfigurierbarer Zelistruktur, 
wobei die Datenverarbeitungseinnchtung eine Zellmatrix aus 
einer Viebahl orthogonal zueinander angeordneter, homo- 
gen strukturierter Zellen, wetche in ihrer Funktion und 
Vernetzung durch eine Ladeiogik frei programmierbar sind, 
enthalt, dadurch gekennzeichnet, daS 

a) ein Konfigurationsprogramm, bestehend aus einer Folge 
von Ladelogik-Befehlen, die jeweils die Funktion und Vernet- 
zung der einzelnen Zellen angeben, so daS sich aus einer Teil 
folge eine spezielle Konfiguration mit spezieUerfen) Anwen- 
dung(en) ergibt, vorhanden 1st, euf das die Ladeiogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wfrd, 

b) zunachst durch eine bestimmte Anzahl von Ladelogik-Be- 
fehlen eine (Configuration (Fig. 20b) mit spezieller(en) An- 
wendung(en), mittels.der Ladeiogik (30) zu Beginn als 
Startkonfiguration in der Zeli-Matrix (Fig. 2, Fig. 3) einge- 
steltt wird, 

c) durch eine Statemachine (45) oder einen Komparator (48) 
die Beendigung der Durchfuhrung einer Anwendung einer 
oder mehrerer Zellen erkannt wird, 

d) durch die Erkennung eine Ruckmeldung an die Ladeiogik 
(30) erfolgt, die die Programm8barbeitung des Konfigura- 

W tionsprogramms mit einer anderen Teilfolge (Fig. 21b, 
tS Fig. 22b) fortsetzt. weiche nur Zellen umkonfiguriert, also 
w neu erstellt, die die DurchfQhrung ihrer Funktion fflr die 
^» aktuelle Anwendung bereits beendet haben oder nicht 
00 benotigt werden, so daS die Abarbeitung der Datenstrdme 
00 der an der aktuellen Konfiguration noch beteiligten, parallel 
m (z.B. Register 41, 42) oder gepipeiined (z.B. Fig. 22a, 
^ Summierer 141 und Multiplizierer 149) arbeitenden Zellen, 
die sich noch in der Durchfuhrung ihrer Anwendung befin- 
dan, nicht gestort wird. 
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Beschreibung 

Die vorliegende Erfindung bezieht sich auf Verfahren 
zum Betrieb einer Datenverarbeitungseinrichtung, d. h. 
einer Hardwareeinheit zur Iogischen und arithmeti- 
schen Manipulation (Verknupfung) von in binarer Form 
vorliegenden Daten (Informationen). 

Nach dem Stand der Technik sind gewohnliche Mi- 
kroprozessoren (z. B. Intel 80 x 86) bereits bekannt Die- 
se sind aus fest vorgegebenen Einheiten ausgestaltet 
und verarbeiten Programme durch das Auskodieren 
von Befehlen (Microcode) und dadurch bestimmte Regi- 
stermanipulationea 

Ebenfalls bekannt sind sogenannte FPGAs (z. B. aus 
US-Patent 4,870302) die zum Aufbau von komplexen 
Iogischen Strukturen verwendet werdea Auf der 
Grundlage dieser Bausteine lassen sich Rechenwerke 
wie Addierer, Multiplizierer, etc. innerhalb des Baustei- 
nes fur die Durchfuhrung einer bestimmten Funktion 
oder Aufgabe konfigurierea Durch die direkte Imple- 
mentierung einer Funktion in die entsprechenden Lo- 
gikbausteine konnen FPGAs Funktionen oftmals 
schneller ausfuhren als Mikroprozessorea Obwohl die 
bekannten Bausteine aufgrund ihrer SRAM-Architek- 
tur bereits umkonfiguriert werden konnen, existiert kein 
Mechanismus, urn die Umkonfiguration schnell und dy- 
namisch wahrend der Laufzeit durchfuhren zu konnen, 
insbesondere, wenn nur Teilbereiche des Bausteines mit 
einer neuen Funktion konfiguriert werden sollen, wah- 
rend andere Teile des Bausteines ihre Aufgabe fortset- 
zea Durch die fehlende Interaktion zwischen einer kon- 
figurierenden Einheit und dem FPGA an sich, scheiden 
die Bausteine als funktionaJ vollwertiger Ersatz fur Mi- 
kroprozessoren aus. 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, ein Verfahren zum Betrieb einer 
Datenverarbeitungseinrichtung mit programmierbarer 
und konfigurierbarer Zell-Struktur — wobei eine Zelle 
als ein logisches Schaltelement ahnlich US 4,870,302 
(LJL) oder eine besonders ausgestaltete Recheneinheit 
(ALU) definiert ist — bereitzustellen, das eine hdhere 
Parallelitat der Verarbeitung und eine flexiblere Verar- 
beitung von Daten gewahrleistet 

Dabei wird beschrieben, wie Bausteine, die aus einer 
Vielzahl von zwei- oder mehrdimensionalen Zellstruk- 
turen aufgebaut sind, schnell und effizient nach Ablauf 
eines Arbeitsschrittes oder Teilarbeitsschrittes, durch 
Interaktion zwischen dem Baustein und einer konfigu- 
rierenden Einheit, dynamisch neu konfiguriert werden, 
ohne EinfluB auf noch ablaufende Arbeitsschritte zu ha- 
ben. Die Notwendigkeit einer Umkonfiguration, bzw. 
das Ende eines Arbeitsschrittes, kann gemafl dieses Ver- 
fahrens automatisch erkannt werdea Dadurch kann auf 
Grundlage dieses Verfahrens ein vollwertiger Ersatz fur 
Mikroprozessoren geschaffen werdea 

Ein Vorteil der vorliegenden Erfindung liegt darin, 
daB die beschriebene Methode eine aber einen weiten 
Raum skalierbare Parallelitat ermoglicht Hierbei wird 
eine Basis zum schnellen und flexiblen Aufbau von zum 
Beispiel neuronalen Strukturen geschaffen, wie sie bis 
dato lediglich mit erheblichem Aufwand durch Software 
simuliert werden kdnnea 

Diese Aufgabe wird durch die im Patentanspruch I 
angegebenen Merkmale beziehungsweise Verfahren- 
schritte gelost Zur Verdeutlichung der Verfahrens- 
schritte wird beispielsweise ein integrierter Schaltkreis 
(Chip) mit einer Vielzahl insbesondere orthogonal zu- 
einander angeordneter Zellen mit je einer Mehrzahl je- 
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weils logisch gleicher und strukturell identisch angeord- 
neter Zellen gezeigt, sowie dessen interne Busstruktur, 
die zur Erleichterung der Prograrnmierung auBerst ho- 
mogen ist Grundsatziich ist es denkbar innerhalb eines 
5 DatenfluBprozessors Zellen mit verschiedenen Zellogi- 
ken und Zellstrukturen unterzubringen, urn so die Lei- 
stungsfahigkeit zu erhohen, indem zum Beispiel fur 
Speicheransteuerungen (Businterface) andere Zellen als 
fur arithmetische Operationen (Arithmetisch/logische 
to Einheiten (ALUs) existierea Insbesondere kann fur neu- 
ronal Netze eine gewisse Spezialisierung von Vorteil 
seia Den Zellen ist eine Ladelogik zugeordnet, fiber die 
die Zellen je fur sich und gegebenenfalls gmppenweise 
in sogenannte MACROs (Menge von Zellen, welche zu- 
15 sammen eine definierte Aufgabe Idsen) zusammenge- 
faBt so programmierbar sind, daB einerseits beliebige 
logische Funktionen, andererseits aber auch die Ver- 
knupfung der Zellen untereinander in weiten Bereichen 
veriflzierbar sind. Dies wird erreicht indem jeder einzel- 
20 nen Zelle ein gewisser Speicherplatz zur Verffigung 
stent, in dem die Konfigurationsdaten abgelegt sind An- 
hand dieser Daten werden Multiplexer oder Transisto- 
ren in der Zelle beschaltet urn die jeweilige Zellfunktion 
zugewahrIeisten(sieheFig. 12). 
25 Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, eine Methode fur einen DatenfluBprozessor vor- 
zuschlagen, der zelluiar aufgebaut ist und dessen Zellen 
uber eine Ladelogik im arithmetisch-Iogischen Sinne 
30 quasi beliebig neu konfiguriert werden konnea Dabei 
ist es von auBerster Notwendigkeit, daB die betreffen- 
den Zellen einzeln und ohne Beeinflussung der Qbrigen 
Zellen oder gar einer Stillegung des gesamten Bausteins 
umkonfiguriert werden konnea Ein DatenfluBprozes- 
35 sor gemaB dem vorliegenden Verfahren kann so wah- 
rend eines ersten Arbeitszyklusses als Addierer und 
wahrend eines spateren Arbeitszyklusses als Multipli- 
zierer w programmiert7genutzt werden, wobei die An- 
zahi der fur die Addition beziehungsweise die Multipli- 
40 kation erforderlichen Zellen durchaus unterschiedlich 
sein kdnnea Dabei bleibt die Plazierung der bereits 
geladenen und wahrend des Umladeprozesses nicht tan- 
gierten MACROs erhalten; der Ladelogik beziehungs- 
weise dem Compiler obliegt es, das neu zu ladende MA- 
45 CRO innerhalb der f reien Zellen zu partitionieren (d. a 
das zu ladende MACRO so zu zerlegen, daB es sich 
optimal einfugen laBt). Die Ablaufsteuerung des Pro- 
gramms wird dabei von der Ladelogik ubernommen, 
indem sie gemaB dem momentan ausgefuhrten Pro- 
50 grammabschnitt die entsprechenden MACROs in den 
Baustein ladt, wobei der Ladevorgang von der spater 
beschriebenen Synchronisationslogik mitgesteuert 
wird, indem sie den Zeitpunkt des Umladens festlegt 
Daher entspricht ein DFP gemaB dem beschriebenem 
55 Verfahren nicht der bekannten von-Neumann-Archi- 
tektur, da die Daten- und Programrnspeicher getrennt 
sind. Dies bedeutet jedoch gleichzeitig eine hdhere Si- 
cherheit, da fehlerhafte Programme keinen CODE, son- 
dern lediglich DATEN zerstoren kdnnea 
60 Um dem DatenfluBprozessor eine arbeitsf&hige 
Struktur zu geben, werden einige Zellen, und zwar unter 
anderem die Eingabe-/Ausgabefunktionen (I/O) und 
Speichermanagementfunktionen (I/O) vor dem Laden 
der Programme geladen und bleiben fur gewohnlich 
65 wahrend der gesamten Laufzeit konstant 

Dies ist erforderlich um den DatenfluBprozessor an 
seine Hardwareumgebung anzupassea Die ubrigen Zel- 
len werden zu sogenannten MACROs zusammengefaBt 
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und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinflussung von Nachbarzellen oder anderen 
MACROs umkonfiguriert werden. Dazu sind die Zellen 
einzein und direkt adressierbar. 

Um die Umstrukturierung (das Umladen/Umkonfigu- 
rieren) der Zellen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer alten 
Tatigkeit fertig sind — eine Synchronisationsschaltung 
als MACRO auf dem DatenfluBprozessor unterge- 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet Hierzu kann eventuell eine Modifi- 
kation der gewdhnlichen MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
fonnationen zur Verfugung stellen mussen. 

Diese Zustandsinfonnationen signalisieren der Syn- 
chronisationslogik fur gewdhnlich, daB einzelne MA- 
CROS ihre Aufgabe erledigt haben, was aus prograra- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. DJi. das Pro* 
gramra wird an einer anderen S telle fortgesetzt und die 
die Zustandsinformation absendenden MACROs kon- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinfonnationen durch eine Logik (zum 
Beispiel einen (Prioritats- Arbiter) erfolgen. Eine derarti- 
ge — einfache — Logik ist in Fig, 19 gezeichnet Die 



mit zwei Kaskadierungsmethoden denkbar: 

a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
Beispiel zwei IO-Pins pro Kantenzelle und vier 10- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 

i o gen ist (GlobaJe Verbindungen zwischen mehreren 
Zellen, fur gewdhnlich zwischen einer kompletten 
Zellenreihe oder -spake — siehe Fig. 1 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 6a zeigt den moglichen Aufbau innerhalb eines 

is DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 

b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der bendtigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 

20 serem Beispiel (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwolf IO-Pins pro Eckzelle. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 

25 Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahi der globalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 



Logik besitzt sieben Eingangssignale durch die die sie- 30 genutzt werden kann. Um diesen Effekt zu minimieren, 



ben MACROs ihre Zustandsinformation abgebea In 
diesem Fall soil 0 fur In Arbeit" und 1 fur "fertig" stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik gefflhrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 
gange an, so Fmdet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiel Sync6 als 110 dargestellt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedient, seine Aufgabe beendet hat Liegen gleichzeitig 



kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
35 Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechea Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 



mehrere Zustandsinfonnationen am Eingang an, so gibt 40 sofern der Treiber in Tristate ist, ansonsten wird ein 



die Synchronisationsschaltung das Signal mit der hoch- 
sten Prioritat an die Ladelogik weiter; liegen zum Bei- 
spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- 
nistaions-Schaltung zunachst Sync6 an die Ladelogik 
weiter. Nachdem die entsprechenden MACROs umge- 
laden sind und somit Sync6 nicht mehr anliegt wird 
Sync4 weitergeleitet usw. Zur Verdeutlichung dieses 
Prinzips kann zum Beispiel der Standard-TTL-Baustein 
74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 50 
weils optimal und gegebenenfalls dynamisch auf eine zu 
losende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe Vorteil verbunden, daB neue Normen 
oder dergleichen einzig und allein durch Umladen des 



Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
ber der einzelnen globalen Leitungen auch einzein an- 
gesteuert werden konnen, d h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
45 geschleift Somit konnen auf einer globalen Verbindung 
durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsachlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFlg. 18). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festplatte, die im IO-Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 



DatenfluBprozessors umgesetzt werden kdnnen und 55 durchgereicht werden, indem die DatenfluBprozessoren 



nicht — wie bisher — einen Austausch mit entsprechen- 
dem Anf all von Elektronikschrott bedingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhohung des 
Parallelisierungsgrades, der Rechenleistung, sowie der 
NetzgroBe in neuronalen Netzen fuhrL Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den Ein-/Ausgangs-Pins (IO-Pins) der DatenfluB- 
prozessoren, um mdgiichst keine Einschrankungen auf 
die Programme zu haben. 

In Fig. 4 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). PrinzipielJ sind da- 



60 



65 



die Daten von der Platte in den Shared-Memory schrei- 
ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verknilpft werden sollen. 

Weiterbildungen der vorstehend deMnierten und um- 
schriebenen Erfmdung sind Gegenstand der Unteran- 
spruche. 

Eine besondere Verwendung eines DatenfluBprozes- 
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sors gemaB dem beschriebenem Verfahrens ist darin zu 
sehen, daB er in Verbindung mit geeigneten Ein-ZAusga- 
be-Einheiten einerseits und einem Speicher andererseits 
die Basis fur einen kompletten (komplexen) Rechner 
bilden kann. Dabei kann ein GroBteil der IO-Funktio- 
nen als MACROs auf dem DatenfluBprozessor imple- 
mentiert werden und es brauchen momentan lediglich 
Spezialbausteine (Ethernet-Treiber, VRAMS. . .) extern 
zugefugt zu werden. Bei einer Normanderung oder Ver- 



gestellt sind (tatsachlich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Fig. 5 die durch die Kaskadierung erreichte Homoge- 
nitat; 

Fig. 6a die Struktur der E/A-Zellen, wobei die globa- 
len Verbindungen nicht herausgefuhrt werden, 

Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 
ausgefuhrten globalen Verbindungen; 
Fig. 7a die aus Fig. 6a resultierende Kaskadierung, 



besserung muB dann wie bereits angedeutet nur das io wobei eine Eckzelle, sowie die zwei mit ihr komraunizie- 



20 



25 



MACRO softwareseitig angepaBt werden; ein Eingriff 
in die Hardware ist nicht notwendig. Es bietet sich hier 
an, einen IO-{Eingabe-/Ausgabe-) Stecker festzulegen, 
uber welchen dann die Zusatzbausteine angeschlossen 
werden konnen. 

Fig. 16 zeigt den stark vereinfachten Aufbau eines 
heute ublichen Rechners. Durch den Einsatz eines DFP- 
Bausteins kdnnen erhebliche Teile eingespart werden 
(Fig. 17), wobei die entsprechenden herkdmmlichen 
Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 
tur- und Videointerface, sowie der parallelen und seriel- 
len Schnittstellen) als MACROs in die kaskadierten 
DFPs abgelegt werden. Nur die durch einen DFP nicht 
nachbildbaren Teile wie Speicher und Lehungstreiber 
mit nicht TTL-Pegeln oder fur hohe Lasten mussen ex- 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gunstige Produktion gegeben, da ein und 
derselbe Baustein sehr haufig verwendet wird, das Lay- 
out der Platine ist durch die homogene Vernetzung ent- 
sprechend einfach. Zudem wird der Aufbau des Rech- 
ners durch die Ladelogik bestimmt, die hier fur gewohn- 
lich nur zu Beginn der Verarbeitung (nach einera Reset) 
das DFP-Array ladt, wodurch eine gunstige Fehlerkor- 
rektur- und Erweiterungsmoglichkeit gegeben ist Ein 
derartiger Rechner kann insbesondere mehrere ver- 
schiedene Rechnerstrukturen simulieren, indem einfach 
der Aufbau des zu simulierenden Rechners in das DFP- 
Array geladen wird. Zu bemerken ist, daB hierbei der 
DFP nicht in seiner Funktion als DFP arbeitet sondern 
lediglich ein hochkomplexes und frei programmierbares 40 
Zellarray zur Verfugung stellt, sich hierbei jedoch von 
herkommlichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet. 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist 
der Aufbau groBer neuronaler Netze. Sein besonderer 45 
Vorzug liegt hierbei in seiner hohen Gatterdichte, seiner 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- 
genitat Ein Lernvorgang, der eine Anderung einzelner 
axiomatischer Verbindungen beziehungsweise einzel- 
ner Zellfunktionen beinhaltet ist auf ublichen Baustei- 
nen ebenso schlecht durchfuhrbar, wie der Aufbau gro- 
Ber homogener und gleichzeitig flexibler Zeilstrukturen. 
Die dynamische Umkonfigurierbarkeit ermdglicht erst- 
malig die optimale Simulation von Lernvorgangen. 



Die vorliegende Erfindung wird im folgenden anhand 55 tetsind; 



renden Treiberzeilen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

Fig. 7b die aus Fig. 6b resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
15 renden Treiberzeilen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

Fig. 8 einen bei spiel haften Aufbau einer Zeile mit 
Muitiplexern zur Auswahl der jeweiligen logischen Bau- 
steine; 

Fig. 9 ein Schaltsymbol fur einen 8-Bit- Addierer; 
Fig. 10 ein Schaltsymbol far einen aus acht 1-Bit-Ad- 
dierern bestehenden 8-Bit- Addierer nach Fig. 9; 

Fig. 11 eine logische Struktur eines 1-Bit-Addierers 
entsprechendFig. 10; 

Fig. 12 eine Zellenstruktur des 1-Bit-Addierers ent- 
sprechend Fig. 1 1 ; 

Fig. 13 einen der Zellenstruktur nach Fig. 9 entspre- 
chend aufgebauten 8-Bit- Addierer; 
Fig. 14 ein erstes Ausfuhrungsbeispiel einer Mehrzahl 
30 miteinander zu einem Rechenwerk gekoppelter inte- 
grierter Schaltkreise (DatenfluBprozessor) nach Fig* 3; 

Fig. 15 ein zweites Ausfuhrungsbeispiel einer Mehr- 
zahl miteinander zu einem Rechenwerk gekoppelter in- 
tegrierter Schaltkreise (DatenfluBprozessor) nach 
Fig.3; 

Fig. 16 den stark schematisierten Aufbau eines her- 
kommlichen Rechners; 

Fig. 17 den mdglichen Aufbau desselben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 

Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
tungs-) Treibern eines DFPs. 

Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefuhrte Synchronisationslogik; 

Fig. 20a, b, c ein AusfGhrungsbeispiel eines MACRO 
zur Addition zweier Zahlenreihen; 

Fig. 21a eine Multipukationsschaltung (vergleiche 
Fig. 20); 

Fig. 21b die interne Struktur des DFPs nach dem La- 
den (vergleiche Fig. 20b); 

Fig. 21c die Arbeitsweise des DFPs im Speicher, so- 
wie die Zustande der Zahler 47, 49; 

Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
dierer aus Fig. 20 und der Multiplizierer aus Fig. 21 zur 
Steigerung der Rechenleistung hintereinander geschal- 
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der weiteren Figuren niher erlautert Insgesamt zeigen 

Fig. 1 ein aus vier Zellen bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- 
derlichen Leitungsanschiussen; 

Fig. 2 einen Teilausschnitt eines integrierten Schalt- 
kreises (Chip) mit einer Vielzahl von ZeDen und einem 
separierten SUBMACRO X gemaB Fig. 1 ; 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 65 
Zellen und einer extern zugeordneten Ladelogik; 

Fig. 4 die Kaskadierung von vier DFPs, wobei die 
Verbindung zwischen den IO-Pins nur schematisch dar- 



in Kg. 9 ist ein Schaltsymbol eines 8-Bit- Addierers dar- 
gestellt Das Schaltsymbol besteht aus einem quadrati- 
schen Baustein 1 mit acht Eingangen A 0...7 fttr ein 
erstes Datenwort A und acht Eingangen B 0. . .7 fur ein 
60 zweites (zu addierendes) Datenwort B. Die jeweils acht 
Eingange Ai, Bi (i = 0. . .7) werden erganzt durch einen 
weiteren Eingang Oein aber den dem Baustein 1 gege- 
benenfalls ein Obertrag zugeleitet wird. Der Baustein 1 
hat f unktions- und bestimmungsgemaB acht Ausgange S 
0. . J fur binaren Summanden und einen weiteren Aus- 
gang Oaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 
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als Anordnung sogenannter SUBMACROS dargestellt risch separiert, das letztlich als aus vier einem 1-Bit-Ad- 
Diesc SUBMACROS 2 bestehen je aus einem 1 -Bit- Ad- dierer entsprechend programmierten ZeDen (10 gemaB 
dierer 3 mit je einem Eingang fur die entsprechenden Fig. 12)bestehende Untereinheit zu betrachten ist 
Bits des Datenworts und einem weiteren Eingang fur ein Das in Fig. 13 separierte SUBMACRO "X" ist in 
Obertragsbit Die 1-Bit-Addierer 3 weisen daruberhin- 5 Fig. 1 als Teil eines integrierten Scfaaltkreises (Chip) 20 
aus einen Ausgang fur den Summanden und einen Aus- gemeinsam mit Leitungs- und Datenanschlussen darge- 
gang fur den Obertrag Oaus auf. stellt Das SUBMACRO "X n besteht aus den vier Zellen 

In Fig. 11 ist die bin2re Logik eines 1-Bit-Addierers 10 die entsprechend der orthogonalen Struktur je Seite 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 vier Datenanschlusse (also insgesamt sechzehn Daten- 
dargestellt Analog zu Fig. 10 weist diese Schaltlogik je 10 anschlfisse je Zelle) aufweisen. Die DatenanschlQsse 
einen Eingang Ai, Bi fur die konjugierten Bits der zu verbindenjeweilsbenachbarteZeilen,sodaBersichtlich 
verknupfenden Daten auf; ferner ist ein Eingang Oein wird, wie beispielsweise eine Dateneinheit von Zelle zu 
fur den Obertrag vorgesehen. Diese Bits werden den Zelle durchgeschleust wird Die Ansteuerung der Zellen 
dargestellten Verbindungen beziehungsweise Verknup- 10 erfolgt einerseits uber sogenannte lokale Steuerun- 
fungen entsprechend in zwei ODER-Gliedern 5 und drei 15 gen, das sind lokale Leitungen, die mit alien Zellen ver- 
NAND-Gliedera 6 verknupft, so daB am Ausgangsan- bunden sind, und andererseits uber sogenannte globale 
schluB Si und am Ausgang fur den Obertrag Oaus die Leitungen, d h. Leitungen, die Qber den gesamten inte- 
einem Volladdierer entsprechenden Verknupfungser- griertenSchaltkreis(Oiip)20gefuJirtsind 
gebnisse(Si,Oaus)anstehen. In Fig. 2 ist ein vergroBerter Ausschnitt eines inte- 

Auf der Grundlage logisch und strukturell identischer 20 grierten Schaltkreises 20 dargestellt, der mit einem or- 
Zellen 10, deren einzelne logische Bausteine der auszu- thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 2 
fuhrenden Verknupfungsfunktion entsprechend ver- angedeutet kann so zum Beispiel eine Gruppe von vier 
schaltet werden, wird der 8-bit Addierer 2 in geeigneter Zellen 10 als SUBMACRO "X" ausgewahlt und dem 
Weise in die Zellstruktur implementiert Der Vorgang 1-Bit-Addierer entsprechend Fig. 12 gemaB program- 
geschieht mitteis der noch zu beschreibenden Ladelo- 25 miert beziehungsweise konfiguriert werden. 
gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik Ein volistandiger integrierter Schaltkreis gemaB dem 
nach Fig. 11 abgeleiteten Verknupfungslogik fur einen beschriebenen Verfahren (DFP) 20 ist beispielsweise in 
1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 bezuglich Fig. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 
der logischen Bausteine insoweit gleich, daB jeweils ein steht aus einer Vielzahi im orthogonalen Raster ange- 
ODER-Glied 5 und ein NAND-Glied 6 aktiviert sind. 30 ordneter Zellen 10 und weist an seinen AuBenkanten 
Eine dritte Zelle 10.3 wird nur als Leitungszelle (Leiter- eine entsprechende Anzahl von LeitungsanschlQssen 
bahnzelle) benutzt und die vierte Zelle 10.4 ist bezuglich (Pins) auf, uber die Signale, insbesondere Ansteuersi- 
des dritten NAND-Gliedes 6 aktiv geschaltet Das aus gnale und Daten zugefuhrt und weitergeleitet werden 
den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 kdnnen. In Fig. 3 ist wiederum das SUBMACRO "X" 
steht somitsteUvertretend fur einen 1-Bit-Addierer, dh. 35 gemaB Fig. 13/Fig. 1 abgegrenzt; daruberhinaus sind 
ein 1-Bit-Addierer einer Datenverarbeitungseinrich- auch weitere SUBMACROS separiert, die spezifischen 
tung nach Art der vorliegenden Erfindung kann uber Funktionen und Vernetzungen entsprechend zu Unte- 
vier entsprechend programmierte (konfigurierte) Zellen reinheiten zusammengefaBt sind Dem integrierten 
10.1. ... 10.4 veriflziert werden. (Der Vollstandigkeit Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
halber soli angemerkt werden, daB die einzelnen Zellen 40 beziehungsweise ubergeordnet, uber die der integrierte 
ein erheblich umfangreicheres Netzwerk von logischen Schaltkreis 20 programmiert und konfiguriert wird Die 
Bausteinen, sprich Verkniipfungsgliedern, und Invertern Ladelogik 30 teflt letztlich dem integrierten Schaltkreis 
aufweist, die jeweils dem aktuellen Bef ehl der Ladelogik 20 mit wie er arithmetisch-logisch zu arbeiten hat 
zufolge aktiv geschaltet werden kdnnen. Neben den lo- Anhand von Fig. 14 beziehungsweise Fig. 15 soil im 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 45 folgenden eine Rechnerstruktur beschrieben werden, 
bindungsleitungen zwischen den jeweils benachbarten die auf den im vorstehenden definierten und eriauterten 
Bausteinen und zum Aufbau von zeilen- und spaltenwei- integrierten Schaltkreis 20 aufbaut 
sen Busstrukturen zur Datenfibertragung andererseits GemaB dem in Fig. 14 dargestellten ersten Ausfuh- 
vorgesehen, so daB Uber eine entsprechende Program- rungsbeispiel ist — analog zur Anordnung der Zellen — 
mierung seitens der Ladelogik quasi beliebige logische 50 im Orthogonalraster eine Mehrzahl von integrierten 
Verknupfungsstrukturen implementiert werden kon- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
nen). uber lokale BUS-Leitungen 21 miteinander gekoppeit 

Der Vollstandigkeit halber ist in Fig. 13 der Zellen- beziehungsweise vernetzt sind Die — beispielsweise 
aufbau eines 8-Bit-Addierers in seiner Gesamtheit dar- aus sechzehn integrierten Schaltkreisen 20 bestehende 
gestelltDieinFig. 13 gezeigte Struktur entspricht inso- 55 — Rechnerstruktur weist Ein-/Ausgangsleitungen IO 
weit der nach Kg. 10, wobei die in Fig. 10 symbolisch als auf, uber die der Rechner quasi mit der AuBenwelt in 
SUBMACROS 3 dargestellten 1-Bit-Addierer jeweils Verbindung stent d h. korrespondiert Der Rechner ge- 
durch eine vier-zellige Einheit 10.1. . . . 10.4 ersetzt sind maB Fig. 14 weist ferner einen Speicher 22 auf, der dem 
Bezogen auf einen DatenfluBprozessor gemaB des be- dargestellten Ausfuhrungsbeispiel entsprechend aus 
schriebenen Verfabrens bedeutet dies, daB zweiunddrei- 60 zwei separierten Speichern, zusammengesetzt aus je- 
Big Zellen der zur Verfugung stehenden Gesamtheit weils RAM, ROM sowie einem Dual-Ported RAM als 
von Zellen einer zellular mit logisch identischera Layout shared memory zu der Ladelogik geschaltet besteht die 
gefertigten Schaltungsplatine seitens der Ladelogik so gleichermaBen als Schreib-Lese-Speicher oder auch nur 
angesteuert und konfiguriert beziehungsweise pro- als Lese-Speicher realisiert sein konnen. Der soweit be- 
grammiert werden, daB diese zweiunddreiBig Zellen ein 65 schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
8-Bit- Addierer bildea beziehungsweise abergeordnet mitteis der die inte- 

In der Darstellung nach Fig. 13 ist uber eine strich- grierten Schaltkreise (DatenfluBprozessor) 20 program- 
punktierte Umrahmung ein SUBMACRO "X** zeichne- miert und konfiguriert und vernetzt werden. 
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Die Ladelogik 30 baut beispielsweise auf einem 
Transputer 31, d h. einem Prozessor mit mikrocodier- 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 
zugeordnet ist. Die Verbindung zwischen dem Transpu- 
ter 31 und dem DatenfluBprozessor basiert auf einer 
Schnittstelle 33 fur die sogenannten Ladedaten, d. h. die 
Daten die den DatenfluBprozessor aufgabenspezifisch 
programmieren und konfigurieren und einer Schnitt- 
stelle 34 fur den bereits genannten Rechnerspeicher 22, 
d h.den Shared-Memory-Speicher. 

Die in Fig, 14 dargestellte Struktur stellt so einen 
kompletten Rechner dar, der Qber die Ladelogik 30 je- 
weils fall- beziehungsweise aufgabenspezifisch pro- 
grammiert und konfiguriert werden kann. Der Vollstan- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 
dung mit der Ladelogik 30 uber Pfeile angedeutet — 
mehrere dieser Rechner vernetzt, d h. miteinander ge- 
koppeit werden kdnnen. 

Ein weiteres Ausfuhrungsbeispiel einer Rechner- 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen 
zwischen den benachbarten integrierten Schaltkreisen 
20 noch fibergeordnete zentrale BUS-Leitungen 23 vor- 
gesehen, um zum Beispiel spezifische Ein- beziehungs- 
weise Ausgangsprobleme losen zu konnen. Auch der 
Speicher 22 (Shared-Memory) ist uber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- 
bunden, und zwar wie dargestellt jeweils mit Gruppen 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 
stellte Rechnerstruktur weist die gleiche Ladelogik 30 
auf, wie sie anhand von Fig. 14 erlautert wurde. 

In Verbindung mit Fig. 20a soil eine aus erfindungsge- 
maBen DatenfluBprozessoren aufgebaute Addiuons- 
schaltung erlautert werden. Ausgegangen wird von zwei 
Zahlenreihen A n und B n fur samtliche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe Q = Ai + Bj 
zu bilden, wobei der Index i die Werte 0 <= n < 9 
annehmen kann. 

Bezugnehmend auf die Darstellung nach Fig. 20a ist 
die Zahlenreihe A n in einem ersten Speicher RAMI 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse 1000 h; die Zahlenreihe B n ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe C n wird in den RAMI eingeschrieben und 
zwar unter der Adresse 100 ah. 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung freigegebe- 
nen Taktzyklen hochzahlt Dies soil im Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROs ohne Beeinflussung der an der Umkonfigurie- 
rung nicht beteiligten &ACROs dienen. 

Fig. 20a .zeigt zunachst die eigentliche Additions- 
schaltung 40, die aus einem ersten Register 4t zur Auf- 
nahme der Zahlenreihe A n und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe B n besteht Den bei- 
den Registern 41/42 ist ein 8-Bit-Addierer entsprechend 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet 
Der Ausgang des MACRO 1 ftthrt Uber eine Treiber- 
schaltung 43 zuriick zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Additionsschaltung 
40 erfolgt uber eine von einem Taktgenerator T ange- 
steuerte Zustandsmaschine (STATEMACHINE) 45, die 
mit den Registern 41, 42 und der Treiberschaltung 43 
verbunden ist 

Die Additionsschaltung 40 wird funktional durch eine 
AdreBschaltung 46 zur Generierung der AdreBdaten fur 
die abzuspeichemden Additionsergebnisse erganzt Die 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs 
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1 (gemaB Fig. 9) zur Bildung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
einen Eingang werden die zu verknupfenden Adressen 
f ur An, Bn, Cn zugefuhrt Diese Adressen werden mit den 
5 Ausgangssignalen eines Zahlers 47 addiert und mit der 
Statemachine 45 so verknupf t, daB am Ausgang die neue 
Zieladresse ansteht Der Zahler 47 und der Komparator 
48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
die richtigen Summanden verknupft werden und daB 

io jeweils am Ende der Zahlenreihen, & h. bei n ~ 9 abge- 
brochen wird. Ist die Addition vollendet, so wird in der 
Zustandsmaschine 45 ein STOP-Signal generiert und die 
Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
gnal als Eingangssignal fur eine Synchronisations-Schal- 

15 tung verwenden werden, indem die Synchronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren" gemaB dem nachfolgend be- 
schriebenen ML1 Programm beendet ist und die MA- 
CROS somit durch Neue ersetzt werden kdnnen (zum 

20 Beispiel konnte STOP das Signal Sync5 sein). 

Der Zeitablauf in der 45 (STATEMACHINE) laBt 
sich dabei wie folgt darstellen, wobei noch anzumerken 
ist, daB in der Zustandsmaschine 45 eine Verzdgerungs- 
zeit T (in Form von Taktzyklen) zwischen der AdreBge- 

25 nerierung und dem Datenerhalt implementiert ist: 

— Im Zyklus 1 wird jeweils der Zahler 47 um 1 
erhoht und im Komparator 48 wird gepruft, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 

30 den die Adressen fur A, B, C berechnet; 

— im Zyklus (T + 1) werden die Summanden A, B 
ausgelesen und addiert; 

— im Zyklus (T + 2) wird die Summe C abgespei- 
chert 

35 

Mit anderen Worten heiBt dies, daB die Operations- 

schleife und die eigentliche Addition gerade (T + 2) 

Taktzyklen erfordert Im allgemeinen sind ftir T 2.. 3 

Takte erforderlich, so daB verglichen mit den herkdmm- 
40 lichen Prozessoren (CPU), die im allgemeinen 50 bis 

mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 

che Rechenzeit-Reduzierung moglich wird 
Die anhand von Fig. 20 aufgezeigte Konfiguration 

soli im folgenden uber eine hypothetische MACRO- 
45 Sprache ML1 nochmals erlautert werden: 

Es existieren die Zahlenreihen A n und B n 
n:0<=n< =9 

Es sollen die Summen Q = Aj + B* mit i e N gebildet 

werden. 
50 const n 9; 

array A[n] in RAM[1] at 1000 h; 

array B[n] in RAM[2] at OdfaOh; 

array C[n] in RAM[1] at lOOah; 

fori - 0 ton with (AOlBpiqi]) 
55 Al; 

C « Al - A + B; 

next; 

RAM[1] ist der 1. Speicherblock 
RAM[2] ist der 2. Speicherblock 
eo at folgt die Basisadresse der Arrays 
for ist der Schleif enbeginn 
next ist das Schleif enende 

with ( ) folgen die Variablen, deren Adressen durch die 
Z§hhrariable i bestimmt werden 
65 T folgt die Verzdgerungszeit ffir eine Statemachine in 
Taktzyklen 

Das Tuning der Zustandsmaschine (Statemachine) sieht 
demnach folgendermaBen aus: 
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ZyklusAktrvitat 

1 Zahler erhdhen, Vergleich auf > 9 fta => Abbruch) 
und 

Adressen fur A, B, Q berechnen 
T + I A, B, holen und addieren 
T + 2 Nach C speichern 

Das heiBt — wie bereits erwahnt — die Schleife und die 
Addition bendtigen gerade einmal T + 2 Taktzyklen. 

Fig. 20b zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem erfmdungsgemaBen 
DFR Die MACROs sind in ihrer etwaigen Lage und 
GroBe eingezeichnet und mit den anhand von Fig. 20a 
erlauterten entsprechenden Nummern versehen. 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-BIocke 1 und 2: Die Summanden 
werden nacheinander in aufsteigender Reihenfolge aus 
den RAM-Blocken 1 und 2 ab Adresse 1000 h bezie- 
hungsweise OdfaOh g:elesen und in RAM-Block 1 ab 
Adresse lOOah gespeicbert Zudem sind die Zahler 47 



und 49 gegeben, beide zShlen wahrend des Ablaufs der 20 werden: 



gebildet werden. 
pathD; 
const n = 9; 

array A[n] in RAM[1] at 1000 h 
5 array B[n] in RAM[2] at OdfaOh 
array Cfn] in RAM[1] at lOOah 
for i « 0 to n with (A[iJ B[i} Cp]) 
Al; 

D = Al = A + B; 
l0 C = Al = DxB; 
next; 

path D definiert einen internen nicht aus den DFP 
herausgefOhrten Doppelpfad. Die Operation benotigt 
wegen einem zusatzlichen Al einen Taktzyklus mehr als 
15 vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefuhrt, da zum einen 
die Schleife nur einmal durchlaufen wird, zum zweiten 
nicht umgeladen wird 
Prinzipiell konnte das Programm auch so formuh'ert 



Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soil 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet Die Umladung soli zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen A n und B* wobei A n 
durch das Ergebnis C n des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

n:0 <= n < =9 
Es sollen die Produkte Q — A* x Bi mit i e N gebildet 
werden. 
const n — 9 

array A[n] in RAM[1] at lOOah 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[l]at 1015 h 
fori = 0tonwith(Ali],B[iJC(TD 
Al; 

C = Al = AxB; 
next. 

Die Beschreibung der einzelnen Befehle ist bereits 
bekannt, x symbolisiert die Multiptikation. 

Die MACRO-Struktur ist in Fig. 21a beschrieben, 
Fig. 21b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 



at 1000 h 
at OdfaOh 
at lOOah 



const n =9; 
array A[n] in RAM[1" 
array B[n] in RAM[2 
array C[n] in RAM[1 : 
25 fori = 0 ton with (ApJBpjqi]) 
Al; 

C = A2 = (A + B)xB; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
30 uplizierers zusammen kieiner als ein Taktzyklus, kann 

die Operation (A + B)xB auch in einem Taktzyklus 

durchgefOhrt werden, was zu einer weiteren erhebli- 

chen Geschwindigkeitssteigerung fuhrt: 

const n = 9; 
35 arrayA[n]inRAM[l]at 1000 h 

array B[n] in RAM[2] at OdfaOh 

array C[n] in RAM[1] at lOOah 

fori = 0 ton with (AplBpjqi]) 

Al; 

40 C = A1 = (A+B)xB; 
next; 

Anhand von Fig. 8 soli ein einfaches Beispiel eines 
Zellenaufbaus erlautert werdea Die ZeUe 10 umfafit 
zum Beispiel ein UND-Glied 51, ein ODER-Glied 52, ein 



beachten ist die GrdBe des Multiplizierers 2 in Vergleich 45 XOR-Glied 53, einen Inverter 54 sowie eine Register- 



zu Addierer 1 aus Fig. 20b. In Fig. 21c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, 
Zahler 47 zahlt erneut von 0 bis 9, d. h. er wird beim 
Nachladen der MACROs zurQckgesetzt 

Besonders zu beachten ist der Zahler 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, d h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 



zelle 55. Die Zelle 10 weist darfiberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der Zelle entsprechend Fig. 1) zum Beispiel je sechzehn 
Eingangsanschlussen INI, IN2 auf. Ober diesen 
50 (16 : 1 ^Multiplexer 56/57 werden jeweils die den ge- 
nannten logischen Gliedern UND, ODER, XOR 51. . 53 
zuzuf iihrenden Daten ausgewahlt Diese logischen Glie- 
der sind ausgangsseitig mit einem (3 : 1)-Muitiplexer 58 
gekoppelt, der seinerseits mit dem Eingang des Inver- 



fQhrt nun dazu, daB der 21ahler wahrend des Programm- 55 ters 54, einem Eingang der Registerzelle 55 und einem 



ablaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wurde der Zahler er- 
neut von 0 auf 9 lauf en, da er zurQckgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die eo 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplication in einem Zyklus durchgefuhrt 
werden, also die Operation: 

Es existieren die Zahlenreihen A n und Bn, wobei A n 
durch das Ergebnis von C D des vorher ausgefuhrten 65 
Programms gegeben ist: 

n:0 « n < =9 
Es sollen die Produkte Q =» (Ai + B?)xBi mit i e N 



weiteren (3 : 16)- Multiplexer 59 gekoppelt ist Der letzt- 
genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 
des Inverters 54 und einem Ausgang der Registerzelle 
55 verbunden und gibt das Ausgangssignal OUT ab. 

Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist 

Dem im vorstehenden erlauterten Zeilenaufbau, d. h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewunschten Funktionen entsprechend an- 
steuert 

Sollen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise "FONF" entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 5 
Soli zum Beispiel eine NAND-Verknupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung rait programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zellmatrix aus einer Vielzahl 
orthogonal zueinander angeordneter, homogen 
strukturierter Zellen, welche in ihrer Funktion und 
Vemetzung durch eine Ladelogik frei program- 
raierbar sind, enthalt, dadurch gekennzeichnet, 20 
daB 

a) ein Konfigurationsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zelnen Zellen angeben, so daB sich aus einer 25 
Teil folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig- 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrtwird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfigurationinderZell-Matrix(F1g.2,Fig.3) 35 
eingestellt wird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
fuhrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Erkennung eine Ruckmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 45 
so neu erstellt, die die Durchfuhrung Direr 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht benCtigt werden, so 
daB die Abarbeitung der Datenstrome der an 
der aktuellen Konfiguration noch beteiligten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 
(z. B. Fig. 22a, Summierer 141 und Multiplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der DurchfQhrung ihrer Anwendung befinden, 
nicht gestdrt wird. 55 

2. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z. B. Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, 60 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge uber eine Ruckmeldung 
an die Ladelogik sicherstellt wird. 

3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der AnsprOche 1 oder 65 
2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhlngig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 



RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Fig. 14, Fig. 15; IO) ausgegeben 
wird. 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltern (Fig. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan- 
gige Abschnitte aufgeteilt werden konnen. 
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